Traitements automatiques pour la migration de documents numériques vers XML

نویسندگان

  • Jérôme Fuselier
  • Boris Chidlovskii
چکیده

More and more companies are migrating their legacy document management systems toward XML format, the industrial standard for data exchange. In order to reduce the migration cost we propose an approach aimed at automating the conversion of layout-oriented documents to semantic-oriented annotations. The conversion module uses supervised machine learning techniques to learn a conversion model for a collection of documents. The conversion is achieved through a semantic annotation of the document content and structuring the annotations, accordingly to a XML schema that specify the class of target documents. MOTS-CLÉS : Apprentissage supervisé, Extraction d’informations, XML.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques

RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la desc...

متن کامل

Vers une chaîne XAO intégrée pour une conception centrée sur l''homme - Contribution des documents numériques

RÉSUMÉ. Positionné dans un contexte d’ingénierie concourante, cet article présente une chaîne XAO intégrée pour une conception centrée sur l’homme. Ainsi, dans un environnement de conception collaborative, nous montrons, en nous reposant sur de nouvelles méthodes et outils informatiques qui permettent d’intégrer la simulation virtuelle avec mannequins numériques, qu’il est possible de coconcevo...

متن کامل

Un format de partitions interactives

RÉSUMÉ. Nous présentons dans cet article un format XML créé pour coder les partitions interactives générées via le système Iscore. Le développement de Iscore est l’aboutissement de travaux de recherche menés au LaBRI en collaboration avec l’Ircam, visant à aboutir à un système de partitions interactives pour la composition et l’interprétation, basé sur des contraintes temporelles. La question d...

متن کامل

Approche innovante pour la recherche et l'extraction coopérative et dynamique d'informations sur Internet

Résumé. Il existe de nombreuses techniques qui permettent de classifier des documents textuels en fonction du centre d’intérêt d’un utilisateur (kNN, SVM, . . .). Malheureusement, l’intégration de ces méthodes dans des plate-formes de textmining est souvent très statique et ne permet pas facilement d’affiner les traitements et/ou résultats au cours du temps. Le but de cet article est de présent...

متن کامل

Top_keywords : agrégation de mots-clefs dans un environnement d'analyse en ligne (OLAP)

Résumé. Depuis plus d’une décennie, les travaux de recherche sur OLAP et les bases de données multidimensionnelles ont produit des méthodes, des outils et des moyens d’analyse de données numériques. L’accroissement de la disponibilité des documents numériques entraîne un besoin pour l’ajout de documents XML principalement constitués de données textuelles au sein de bases de données multidimensi...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Document Numérique

دوره 9  شماره 

صفحات  -

تاریخ انتشار 2006